![]() 網頁資訊擷取方法及擷取系統
专利摘要:
本案提供了一種網頁資訊擷取方法及擷取系統,以解決現有的資訊擷取方法自動化程度不高並且技術門檻較高的問題。所述方法包括:通過介面對話模式配置網頁資訊擷取任務,並存入資料庫;監控資料庫,當發現資料庫中存入新的網頁資訊擷取任務後,將所述新的網頁資訊擷取任務發送給調度器;調度器解析網頁資訊擷取任務,並依據解析結果自動執行所述網頁資訊擷取任務。所述介面交互的方式實現了簡單的人機交互,對於非專業人員而言,也可以按照介面的提示進行任務配置,極大地降低了資訊擷取的門檻。而且,調度器依據網頁資訊擷取任務執行的一套自動擷取方式,可以實現大批量網頁高度自動化的資訊擷取。 公开号:TW201305834A 申请号:TW100143930 申请日:2011-11-30 公开日:2013-02-01 发明作者:Yi-Ming Sun;Qi Qiang;Po-Yang Cai;xiao-jun Jin;Zong-Yuan Wu 申请人:Alibaba Group Holding Ltd; IPC主号:G06F16-00
专利说明:
網頁資訊擷取方法及擷取系統 本案關於網頁處理技術,特別是關於一種網頁資訊擷取方法及擷取系統。 網頁資訊擷取就是獲取網頁的資料,然後通過程式分析,將有用的資料提取分離出來。比如編制程式擷取某網站新聞頻道裏的某個新聞標題就是一種網頁資訊擷取。目前的資訊擷取主要分為兩種,一種是基於規則的擷取,規則可以人工定製,也可以通過學習得到,另一種就是利用機器學習方法進行擷取。 搜尋引擎工作的一部分就是網頁資訊擷取。隨著互聯網的發展,互聯網上的資訊規模也隨之不斷擴大。由於互聯網上的資料來自于大量不同的站點,而不同站點的頁面結構差異很大,因此搜尋引擎無法開發出通用的擷取器來分析源自不同站點的網頁。 由於這個原因,最初的搜尋引擎,尤其是垂直搜尋引擎(針對某類知識領域的專業搜尋引擎)通過許多個定向的擷取器來解決這一問題,即每個擷取器定向擷取某個站點或具有某類頁面結構的網頁資訊。但是,由於這種資訊擷取方法需要維護很多個定向擷取器,因此存在不易維護的問題,而且新添加一個或一類站點就需要開發新的定向擷取器,開發成本也很高。 之後,人們開始尋找能夠自動生成擷取器的方案。火車頭採集器是一種主要基於正則運算式的資訊擷取方法,包含資訊的抓取、擷取、發佈等功能,通過用戶配置的正則運算式,實現定製化的抓取與擷取。 但是,這種單純基於正則運算式的資訊擷取方法,還需要手工配置正則運算式,自動化程度不高,對大批量的網頁擷取支持不夠。而且,使用者需要掌握正則運算式的知識,同時也必須對網頁結構有相當程度的瞭解,對非專業人員來說,技術門檻較高。 因此,目前還沒有一種真正簡單、實用的自動化擷取方法,供搜尋引擎或其他互聯網應用進行網頁資訊的自動擷取。 本案提供了一種網頁資訊擷取方法及擷取系統,以解決現有的資訊擷取方法自動化程度不高並且技術門檻較高的問題。 為了解決上述問題,本案揭示了一種網頁資訊擷取方法,包括:通過介面對話模式配置網頁資訊擷取任務,並存入資料庫;監控資料庫,當發現資料庫中存入新的網頁資訊擷取任務後,將所述新的網頁資訊擷取任務發送給調度器;調度器解析網頁資訊擷取任務,並依據解析結果自動執行所述網頁資訊擷取任務。 較佳的,所述通過介面對話模式配置網頁資訊擷取任務,包括:通過介面對話模式執行以下操作:提交標注頁面;在所述標注頁面上標注頁面資訊的點擊行為和/或擷取行為;對所述點擊行為或擷取行為進行細化配置。 較佳的,對所述點擊行為或擷取行為進行細化配置之前,還包括:配置所述點擊行為或擷取行為的操作物件是單一資訊還是列表資訊,如果是單一資訊,則針對該單一資訊進行點擊行為或擷取行為的細化配置;如果是列表資訊,則配置列表屬性,並從列表中選取樣例進行點擊行為或擷取行為的細化配置。 較佳的,每個點擊行為在觸發頁面跳轉時都會產生一個新的標注頁面;最初的標注頁面為起始頁面,基於起始頁面產生的所有標注頁面的集合構成一棵以該起始頁面為根的標注樹,所有的起始頁面代表的標注樹構成一個標注森林;所述網頁資訊擷取任務為一個標注森林或一棵標注樹或一個標注頁面。 較佳的,所述調度器解析網頁資訊擷取任務,並依據解析結果自動執行所述網頁資訊擷取任務,包括:所述調度器解析網頁資訊擷取任務,並依據解析結果調度進行網頁抓取,和/或頁面渲染,和/或頁面資訊擷取。 較佳的,所述調度器解析網頁資訊擷取任務,並依據解析結果自動執行所述網頁資訊擷取任務,包括:調度器解析網頁資訊擷取任務,並獲得每個標注頁面的配置;依據標注頁面的URL調度抓取頁面資料;調度渲染標注頁面,並獲得標注頁面的DOM樹結構;遍歷標注頁面的DOM樹結構中對應節點的配置,並依據所述節點的配置進行如下操作:如果是擷取行為,則依據擷取行為的配置調度擷取本文資訊;如果是點擊行為,並且如果是下載行為,則依據點擊行為的配置調度抓取下載內容;如果是關於渲染的點擊行為,則依據點擊行為的配置進行調度渲染。 本案還提供了一種網頁資訊擷取系統,包括:擷取配置模組,用於通過介面對話模式配置網頁資訊擷取任務,並存入資料庫;資料庫,用於儲存網頁資訊擷取任務;監控模組,用於監控資料庫,當發現資料庫中存入新的網頁資訊擷取任務後,將所述新的網頁資訊擷取任務發送給調度器;調度器,用於解析網頁資訊擷取任務,並依據解析結果自動執行所述網頁資訊擷取任務。 較佳的,所述擷取配置模組包括:配置入口子模組,用於提交標注頁面;行為標注子模組,用於在所述標注頁面上標注頁面資訊的點擊行為和/或擷取行為;細化配置子模組,用於對所述點擊行為或擷取行為進行細化配置。 較佳的,所述擷取配置模組還包括:元素類型選擇子模組,用於配置所述點擊行為或擷取行為的操作物件是單一資訊還是列表資訊;如果是單一資訊,則觸發所述細化配置子模組針對該單一資訊進行點擊行為或擷取行為的細化配置;如果是列表資訊,則配置列表屬性,並觸發所述細化配置子模組從列表中選取樣例進行點擊行為或擷取行為的細化配置。 較佳的,每個點擊行為在觸發頁面跳轉時都會產生一個新的標注頁面;最初的標注頁面為起始頁面,基於起始頁面產生的所有標注頁面的集合構成一棵以該起始頁面為根的標注樹,所有的起始頁面代表的標注樹構成一個標注森林;所述網頁資訊擷取任務為一個標注森林或一棵標注樹或一個標注頁面。 較佳的,所述系統還包括:抓取器,用於根據調度器的調度,依據標注頁面的URL抓取頁面資料,並返回給所述調度器;渲染引擎,用於根據調度器的調度,渲染抓取回來的標注頁面,並獲得標注頁面的DOM樹結構,返回給所述調度器;擷取器,用於根據調度器的調度,依據網頁資訊擷取任務的配置擷取相應的網頁資訊;所述調度器通過解析網頁資訊擷取任務獲得每個標注頁面的配置;所述調度器依據標注頁面的URL調度抓取器抓取頁面資料;所述調度器調度渲染引擎渲染標注頁面,並獲得標注頁面的DOM樹結構;所述調度器遍歷標注頁面的DOM樹結構中對應節點的配置,並依據所述節點的配置進行如下操作:如果是擷取行為,則依據擷取行為的配置調度擷取器擷取本文資訊;如果是點擊行為,並且如果是下載行為,則依據點擊行為的配置調度抓取器抓取下載內容;如果是關於渲染的點擊行為,則依據點擊行為的配置調度渲染引擎進行渲染。 與現有技術相比,本案包括以下優點:首先,本案提供的網頁資訊擷取方法及系統可通過介面對話模式配置網頁資訊擷取任務,系統中的調度器通過解析網頁資訊擷取任務來自動進行資訊擷取。所述介面交互的方式實現了簡單的人機交互,對於非專業人員而言,也可以按照介面的提示進行任務配置,極大地降低了資訊擷取的門檻。而且,調度器依據網頁資訊擷取任務執行的一套自動擷取方式,可以實現大批量網頁高度自動化的資訊擷取。 其次,本案的任務配置過程中不僅可以標注出網頁中要擷取的本文資訊,還可以類比用戶的點擊行為進行配置,例如標注出網頁中要擷取的鏈結進而下載該鏈結的內容,從而完成批量網頁的擷取。而且,本案還可以將網頁DOM樹中類似的兄弟節點配置為列表元素,實現對列表元素的自動化擷取。 再次,本案還支援網頁DOM樹中多個節點內容的資訊擷取,因此可以精準地擷取資訊。 當然,實施本案的任一產品不一定需要同時達到以上所述的所有優點。 為使本案的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本案作進一步詳細的說明。 本案提供了一種網頁資訊擷取方法及系統,可通過介面對話模式配置網頁資訊擷取任務,系統中的調度器通過解析網頁資訊擷取任務來自動進行資訊擷取。本案通過簡單的人機交互,可實現針對互聯網站點的資訊擷取。 下面通過實施例對本案所述方法的實現流程進行詳細說明。 參照圖1,是本案實施例所述一種網頁資訊擷取方法的流程圖。 步驟101,通過介面對話模式配置網頁資訊擷取任務,並存入資料庫;配置網頁資訊擷取任務目的是為了批量的擷取頁面中有價值的內容。 一方面,需要對抓取器(spider)進行配置,使其抓取指定的頁面集合。例如,需要抓取某站點的商品資訊,其中:http://www.360buy.com/product/342890.html這類頁面是要進行擷取的頁面;http://help.360buy.com/help/question-65.html這類頁面是無意義的頁面。 另一方面,還需要配置每個頁面上具體要擷取的內容。例如,要擷取某段文字,或者擷取某個新聞標題,等等。具體的配置方法將在下面的圖2至圖7中進行詳細說明。 需要說明的是,本案實施例中,所述配置是通過介面交互的方式完成,即用戶可以根據介面的提示進行一步步地輸入選擇,無需手動輸入正則運算式,因此操作起來十分簡便,而且配置的自動化程度較高,可以快速完成配置。 步驟102,監控資料庫,當發現資料庫中存入新的網頁資訊擷取任務後,將所述新的網頁資訊擷取任務發送給調度器;可設置一監控程序即時監控資料庫的變化,並及時將放入資料庫的新任務發送給調度器。所述調度器用於按照網頁資訊擷取任務自動化擷取所配置的頁面資訊。 步驟103,調度器解析網頁資訊擷取任務,並依據解析結果自動執行所述網頁資訊擷取任務。 所述調度器主要通過調度各種處理器執行擷取任務,所述處理器包括抓取器(spider)、javascrpit渲染引擎(簡稱JS渲染引擎)和擷取器(extractor)。其中,抓取器(spider)主要用於抓取指定的頁面,JS渲染引擎主要用於對抓取的頁面進行javascrpit處理,擷取器(extractor)主要用於根據配置進行資訊擷取。整個調度執行過程將在下面的圖中8進行詳細說明。 為了使本領域技術人員更加瞭解本案的內容,下面通過圖2至圖8對上述內容進行更詳細的解釋說明。 1.網頁資訊擷取任務的配置 首先,介紹網頁的頁面結構。 目前,通常採用DOM樹來描述網頁的頁面結構。DOM全稱是Document Object Model,即文檔物件模型。DOM是一種用於HTML和XML文檔的編程介面,它給文檔提供了一種結構化的表示方法,可以改變文檔的內容和呈現方式。 例如,參照圖2,是本案實施例中頁面節點的示意圖。頁面http://news.sina.com.cn/c/2011-06-13/133822631625.shtml中的新聞由多個節點的內容組成,其中一個節點及其對應的內容如圖所示。 本案實施例可支援多個節點內容的資訊擷取,這樣可以更加精準地擷取資訊。下面先通過一個簡單的例子說明對某個節點進行配置的過程。 本案實施例採用標注方式完成配置,標注就是在流覽頁面的過程中,將需要擷取的內容標記出來。參照圖3.1至3.4,是本案實施例中通過介面對話模式配置網頁資訊擷取任務的示意圖。對網頁中某個節點的配置過程如下:1)提交入口URL進入標注頁面;參照圖3.1,輸入URL進入該URL指向的頁面;2)打開了新的頁面後,點擊要進行標注的資訊;參照圖3.2,點擊圖中用框線框起來的鏈結,該鏈結的標題是“陝西關中一天水經濟區生產總值高出全國平均水準”;3)彈出視窗選擇動作;參照圖3.3,選擇是擷取該鏈結的文字,還是點擊該鏈結;4)之後對指定的動作進行配置。 參照圖3.4,若選擇的動作是擷取該鏈結的文字,則對文字擷取進行配置,如配置名稱是“新聞標題”等。 從上述例子的配置過程可以看出,通過介面對話模式配置網頁資訊擷取任務的過程主要包括以下幾步:第一,提交標注頁面;第二,在所述標注頁面上標注頁面資訊的點擊行為和/或擷取行為;其中,所述“和”是指可以在同一個頁面上既標注點擊行為,又標注擷取行為;所述“或”是指在同一個頁面上或者標注點擊行為,或者標注擷取行為。 在實際應用中,一般的標注是對網頁中的一些本文或鏈結的標題等資訊標注為擷取行為。而本案實施例較佳的,不僅可以標注出網頁中要擷取的本文資訊,還可以類比用戶的點擊行為進行配置。所述點擊行為包括:1)下載行為,即按照用戶流覽的行為標注出網頁中要點擊的鏈結,進而下載該鏈結的內容;2)其他點擊行為,如發生在一些按鈕或選擇框中的點擊操作,通過模擬這些用戶行為,就可以提交表單登錄、上傳檔或觸發javascrpit。 上述點擊行為和擷取行為都稱為標注行為,每一個標注行為在頁面DOM樹中都能找到與之對應的節點。例如,圖3.2中選擇配置的鏈結就對應一個DOM節點,對這個鏈結配置的是擷取鏈結的文字,當然,也可以配置下載這個鏈結的內容。配置過程中,可以從預覽的視窗中查看當前的擷取結果和爬取的路徑,如果發現結果不準確,還可以隨時調整配置。 第三,對所述點擊行為或擷取行為進行細化配置,如配置細化的點擊屬性或配置細化的擷取規則等。 此外,本案實施例較佳的,還可以將網頁DOM樹中類似的兄弟節點配置為列表元素,實現對列表元素的自動化擷取。例如,參照圖3.2所示,在框線的下方還列出了多條鏈結,這些鏈結相互之間都是兄弟節點,因此在配置過程中可以將這些鏈結設為列表元素。 基於上述配置方法,下面通過圖4說明具體的配置過程。 參照圖4,是本案實施例中通過介面對話模式配置網頁資訊擷取任務的流程圖。 步驟401,提交標注頁面;如以圖3.1的方式提交標注頁面。 步驟402,通過點擊或劃選的方式與介面進行交互;通常,對於鏈結可進行點擊交互,如圖3.2就是點擊該鏈結然後彈出配置視窗。而對於本文內容可進行劃選,所述劃選相當於按住並拖動滑鼠進行本文的選中操作。 通過以上點擊或劃選的操作,介面會根據這些操作彈出相應的配置視窗,供用戶進行下一步的配置。 步驟403,選擇是進行擷取操作還是動作操作;所述擷取操作是指擷取本文資訊或擷取鏈結,所述動作操作是指模擬用戶的點擊行為,如前所述,點擊行為包括下載行為和點擊按鈕或選擇框等其他點擊行為。 需要說明的是,如果步驟402中通過點擊方式進行交互,則在步驟403中可以選擇擷取操作也可以選擇動作操作;如果步驟402中通過劃選方式進行交互,則在步驟403中只能選擇擷取操作。例如,對於頁面中的一條鏈結,通過點擊該鏈結彈出配置視窗,用戶在該視窗中可以選擇擷取該鏈結的文字,也可以選擇下載該鏈結的內容。而對於一篇網頁本文資訊,通用戶只能通過劃選的方式選中某段內容進行擷取配置。 步驟404,選擇操作單一元素還是列表元素;無論是擷取操作還是點擊操作,都可以選擇元素類型。所述元素類型包括單一元素(也稱為單一資訊)和列表元素(也稱為列表資訊),如前所述,列表元素對應著網頁DOM樹中類似的兄弟節點,而單一元素對應著DOM樹中的一個節點。 按照步驟404配置點擊行為或擷取行為的操作物件是單一元素還是列表元素之後,如果是單一元素,則進入步驟405進行細化配置;如果是列表資訊,則可以先配置列表屬性,然後再進入步驟405進行細化配置。 此外,選擇列表元素還允許標注位於同一列表中的多個樣例,後臺利用這些樣例的集合可以自動識別列表的範圍,之後可以進行針對列表屬性的相關配置。 步驟405,配置針對單一元素的規則。 如果選擇單一元素,則針對該單一元素進行點擊行為或擷取行為的配置;如果選擇列表元素,則針對列表中的樣例進行點擊行為或擷取行為的配置。 對於擷取行為,細化配置具體的擷取規則;對於點擊行為,細化配置點擊動作的屬性。 下面通過5至圖7舉例說明細化的擷取配置、點擊行為配置和列表元素配置。 參照圖5,是本案實施例中擷取配置的示意圖。 擷取配置如下: 擷取鏈結 是否抓取鏈結 鏈結內容加工 alt屬性擷取 擷取本文 本文加工 位址識別 日期識別 擷取的內容可以是本文,也可以是鏈結。在進行擷取配置時:如果選擇擷取鏈結,則進入擷取鏈結配置頁面,進一步配置“是否抓取鏈結”選項和“alt屬性擷取”選項,其中配置“是否抓取鏈結”時如果選擇“是”,則還需要配置“鏈結內容加工”選項;如果選擇擷取本文,則進入擷取本文配置頁面,進一步配置“本文加工”、“位址識別”和“日期識別”三個選項。 參照圖6,是本案實施例中點擊行為配置的示意圖。 點擊行為配置如下: 點擊對象 本文框 輸入本文或上傳批量輸入 按鈕 觸發表單提交事件 選擇框 選取操作 鏈結 產生新的頁面 其他 通用行為 點擊操作 滑鼠停留 滾輪操作 滑鼠離開 滑鼠雙擊 首先選擇點擊物件,點擊物件可以是本文框、按鈕、選擇框、鏈結、其他物件和通用行為,然後對所選擇的點擊物件進行具體配置。 如果選擇“本文框”,則進一步配置“輸入本文或上傳批量輸入”選項;如果選擇“按鈕”,則進一步配置“觸發表單提交事件”選項;如果選擇“選擇框”,則進一步配置“選取操作”選項;如果選擇“鏈結”,則進一步配置“產生新的頁面”選項;如果選擇“通用行為”,則進一步配置“點擊操作”、“滑鼠停留”、“滾輪操作”、“滑鼠離開”、“滑鼠雙擊”這幾個選項。 參照圖7,是本案實施例中列表元素配置的示意圖。 以擷取列表配置為例如下: 制定偏移 起始偏移 結束偏移 間隔 制定條件 指定字元序列開頭 指定字元序列結尾 擷取列表配置包括兩個選項:“制定偏移”和“制定條件”,對於“制定偏移”選項,進一步配置“起始偏移”、“結束偏移”和“間隔”的具體數值;對於“制定條件”選項,進一步配置“指定字元序列開頭”和“指定字元序列結尾”。 綜上所述,基於上述對標注頁面的配置,頁面上的每一個標注行為(擷取、點擊),在該頁面的DOM樹中都能找到與之對應的節點。頁面上的每個標注動作,除了記錄配置資訊外,還記錄了定位的資訊。 此外,由於每個點擊行為在觸發頁面跳轉時都會產生一個新的標注頁面,因此可以把最初的標注頁面稱為起始頁面,基於起始頁面產生的所有標注頁面的集合構成一棵以該起始頁面為根的標注樹,所有的起始頁面代表的標注樹構成一個標注森林。 因此,一個標注森林包含多個標注樹,一棵標注樹中的每個節點對應一個標注頁面,而每個標注頁面都對應一個DOM樹,DOM樹中的節點都有對應的標注行為。通常,選擇對一棵標注樹的根節點即起始頁面,按照上述的方法進行配置,由於這顆樹上的其他節點對應的標注頁面都是基於該起始頁面產生的標注頁面,因此在配置起始頁面的過程中,通過配置上述的點擊行為和列表元素,就可以完成對其他標注頁面的擷取配置。換而言之,通過配置起始頁面就可以對基於該起始頁面生成的標注樹進行網頁資訊的自動擷取。 配置一個網頁資訊擷取任務,可以選擇多個起始頁面,將包含這些起始頁面的一個標注森林作為一個任務;也可以選擇一個起始頁面,將基於該起始頁面生成的一棵標注樹作為一個任務;甚至還可以簡單地將一個標注頁面作為一個任務。 2.網頁資訊擷取任務的調度執行 下面通過圖8詳細說明調度執行過程。 參照圖8,是本案實施例中網頁資訊擷取的示意圖。 圖8所示的完整的資訊擷取過程如下:1)用戶通過web介面交互,配置網頁資訊擷取任務;2)將配置的網頁資訊擷取任務存入資料庫;3)監控程序發現新任務,初始化任務相關環境,之後將任務資訊發送給調度器;4)調度器解析並調用相關的處理器完成資訊擷取工作;5)將最終擷取結果存入資料庫,等待用戶提交下載請求。 如圖所示,調度器調用的處理器包括: 抓取器(spider) 主要任務是根據URL請求和附加的cookie、表單等資訊,抓取相應的頁面資料。其輸入、輸出如下:輸入:要抓取的網頁URL和表單數據,所述表單數據指登錄用戶名、密碼等資訊;輸出:抓取到的資源,如頁面、圖片、pdf等文檔、cookie、URL所引用的javascrpit等。 javascrpit渲染引擎 主要任務是根據用戶的行為,調用相應的javascrpit,改變DOM樹的結構或者跳轉到新的頁面。其輸入、輸出如下:輸入:頁面、頁面引用的javascrpit,這些輸入資訊是通過抓取器抓取得到;輸出:渲染後的頁面,其中可能包括javascrpit執行過的動作,如點擊行為。 擷取器(extractor) 主要任務根據擷取的配置資訊與擷取物件的位置資訊,獲取最終的擷取結果。其輸入、輸出如下:輸入:頁面內容、圖片等資源,其輸入可以是擷取器輸出的內容,也可以是javascrpit渲染引擎輸出的內容;輸出:結構化本文,需要擷取的鏈結的URL。 以網頁資訊擷取是一個標注森林為例,所述調度器的處理流程如下: 調度器遍歷任務的標注樹森林 遍歷每顆樹中的節點 判斷當前節點的行為 根據行為進行調度 如前所述,每棵樹是以起始頁面為根、以點擊產生的標注頁面為節點的標注樹,因此標注樹中的每個節點對應一個標注頁面。調度器根據每個標注頁面上的擷取行為配置或點擊行為配置,調度抓取器(spider)、javascrpit渲染引擎或擷取器(extractor)。 調度器調度相應處理器的過程如下:1)調度器解析網頁資訊擷取任務,並獲得起始頁面的配置;調度器載入新任務的所有起始頁面的URL;2)依據起始頁面的URL調度抓取起始頁面;調度器將起始頁面URL傳給spider,spider抓取完頁面,並返回給調度器;3)調度渲染起始頁面,並獲得起始頁面的DOM樹結構;調度器獲得頁面之後,調用javascript渲染引擎,獲取經過javascript處理的DOM樹;4)遍歷起始頁面的DOM樹結構中對應節點的配置,並依據所述節點的配置進行如下操作:如果是擷取行為,則依據擷取行為的配置調度擷取本文資訊;如果是點擊行為,並且如果是下載行為,則依據點擊行為的配置調度抓取下載內容;如果是關於渲染的點擊行為,則依據點擊行為的配置進行調度渲染。 具體的:對於擷取行為,將DOM結構與擷取行為配置傳遞給擷取器(extractor),擷取器返回擷取到的本文結果;對於點擊行為,如果觸發下載行為,則調用spider下載內容,如果下載內容為新的頁面,則將新的頁面添加至調度器的處理序列中;如果觸發其他點擊行為,如果關於到javascrpit的調用,則請求javascrpit渲染引擎返回。如果javascrpit的執行過程中,觸發了ajax(Asynchronous JavaScript And XML,非同步JavaScript及XML)操作,則javascrpit渲染引擎通過調度器,請求spider下載對應的資料,之後繼續javascrpit的渲染過程。 此外,對於網頁資訊擷取任務中的其他標注頁面,也同樣按照調度處理流程進行擷取,詳細的調度過程不再詳述。 由上可知,調度器對每個行為的調度處理並不一定按照抓取器(spider)、javascrpit渲染引擎、擷取器(extractor)的順序進行調度,而是根據具體的行為配置可能調度抓取器(spider),可能調度javascrpit渲染引擎,或者可能調度擷取器(extractor)。 需要說明的是,對於前述的方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本案並不受所描述的動作順序的限制,因為依據本案,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所關於的動作並不一定是本案所必須的。 綜上所述,本案實施例提供的網頁資訊擷取方法可通過簡單的人機交互對資訊擷取進行配置,並可以依據所述配置,在調度器的調度下自動化進行資訊擷取,提高了資訊擷取的自動化程度,可實現大批量網頁高度自動化的資訊擷取。而且,這種人機對話模式對於非專業人員而言,也可以按照介面的提示進行任務配置,極大地降低了資訊擷取的門檻。 進一步,本案與現有的各種資訊擷取方法相比,還具有以下特點和優勢:第一,配置過程中不僅可以標注出網頁中要擷取的本文資訊,還可以類比用戶的點擊行為進行配置,例如標注出網頁中要擷取的鏈結進而下載該鏈結的內容;第二,本案還可以將網頁DOM樹中類似的兄弟節點配置為列表元素,實現對列表元素的自動化擷取;第三,本案還支援網頁DOM樹中多個節點內容的資訊擷取,因此可以精準地擷取資訊。 基於上述方法實施例的說明,本案還提供了相應的網頁資訊擷取系統實施例,來實現上述方法實施例所述的內容。 參照圖9,是本案實施例所述一種網頁資訊擷取系統的結構圖。 所述擷取系統可以包括擷取配置模組91、資料庫92、監控模組93和調度器94,其中,擷取配置模組91,用於通過介面對話模式配置網頁資訊擷取任務,並存入資料庫;資料庫92,用於儲存網頁資訊擷取任務;監控模組93,用於監控資料庫,當發現資料庫中存入新的網頁資訊擷取任務後,將所述新的網頁資訊擷取任務發送給調度器;調度器94,用於解析網頁資訊擷取任務,並依據解析結果自動執行所述網頁資訊擷取任務。 進一步較佳的,所述擷取配置模組91具體可以包括:配置入口子模組,用於提交標注頁面;行為標注子模組,用於在所述標注頁面上標注頁面資訊的點擊行為和/或擷取行為;細化配置子模組,用於對所述點擊行為或擷取行為進行細化配置。 較佳的,所述擷取系統還可以將網頁DOM樹中類似的兄弟節點配置為列表元素,實現對列表元素的自動化擷取,因此所述擷取配置模組91還可以包括:元素類型選擇子模組,用於配置所述點擊行為或擷取行為的操作物件是單一資訊還是列表資訊;如果是單一資訊,則觸發所述細化配置子模組針對該單一資訊進行點擊行為或擷取行為的細化配置;如果是列表資訊,則配置列表屬性,並觸發所述細化配置子模組從列表中選取樣例進行點擊行為或擷取行為的細化配置。 此外,需要說明的是,每個點擊行為在觸發頁面跳轉時都會產生一個新的標注頁面;最初的標注頁面為起始頁面,基於起始頁面產生的所有標注頁面的集合構成一棵以該起始頁面為根的標注樹,所有的起始頁面代表的標注樹構成一個標注森林;所述網頁資訊擷取任務為一個標注森林或一棵標注樹或一個標注頁面。 進一步較佳的,所述擷取系統還可以包括:抓取器95,用於根據調度器94的調度,依據標注頁面的URL抓取頁面資料,並返回給所述調度器94;渲染引擎96,用於根據調度器94的調度,渲染抓取回來的標注頁面,並獲得標注頁面的DOM樹結構,返回給所述調度器94;擷取器97,用於根據調度器94的調度,依據網頁資訊擷取任務的配置擷取相應的網頁資訊;所述調度器94通過解析網頁資訊擷取任務獲得每個標注頁面的配置;所述調度器94依據標注頁面的URL調度抓取器95抓取頁面資料;所述調度器94調度渲染引擎96渲染標注頁面,並獲得標注頁面的DOM樹結構;所述調度器94遍歷標注頁面的DOM樹結構中對應節點的配置,並依據所述節點的配置進行如下操作:如果是擷取行為,則依據擷取行為的配置調度擷取器97擷取本文資訊;如果是點擊行為,並且如果是下載行為,則依據點擊行為的配置調度抓取器95抓取下載內容;如果是關於渲染的點擊行為,則依據點擊行為的配置調度渲染引擎96進行渲染。 進一步的,在渲染引擎96的執行過程中,如果觸發了ajax(Asynchronous JavaScript And XML,非同步JavaScript及XML)操作,則渲染引擎96通過調度器94,請求抓取器95下載對應的資料,之後繼續渲染引擎96的渲染過程。 綜上所述,所述網頁資訊擷取系統實現了高度自動化的資訊擷取,並且通過介面對話模式完成配置,實現了簡單的人機交互,極大地降低了資訊擷取的門檻。 對於上述擷取系統實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見圖1至圖8所示方法實施例的部分說明即可。 本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。 以上對本案所提供的一種網頁資訊擷取方法及擷取系統,進行了詳細介紹,本文中應用了具體個例對本案的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本案的方法及其核心思想;同時,對於本領域的一般技術人員,依據本案的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本案的限制。 圖1是本案實施例所述一種網頁資訊擷取方法的流程圖;圖2是本案實施例中頁面節點的示意圖;圖3.1至3.4是本案實施例中通過介面對話模式配置網頁資訊擷取任務的示意圖;圖4是本案實施例中通過介面對話模式配置網頁資訊擷取任務的流程圖;圖5是本案實施例中擷取配置的示意圖;圖6是本案實施例中點擊行為配置的示意圖;圖7是本案實施例中列表元素配置的示意圖;圖8是本案實施例中網頁資訊擷取的示意圖;圖9是本案實施例所述一種網頁資訊擷取系統的結構圖。
权利要求:
Claims (11) [1] 一種網頁資訊擷取方法,其特徵在於,包括:通過介面對話模式配置網頁資訊擷取任務,並存入資料庫;監控資料庫,當發現資料庫中存入新的網頁資訊擷取任務後,將該新的網頁資訊擷取任務發送給調度器;及調度器解析網頁資訊擷取任務,並依據解析結果而自動執行該網頁資訊擷取任務。 [2] 根據申請專利範圍第1項所述的方法,其中,該通過介面對話模式配置網頁資訊擷取任務,包括:通過介面對話模式執行以下操作:提交標注頁面;在該標注頁面上標注頁面資訊的點擊行為和/或擷取行為;及對該點擊行為或擷取行為進行細化配置。 [3] 根據申請專利範圍第2項所述的方法,其中,對該點擊行為或擷取行為進行細化配置之前,還包括:配置該點擊行為或擷取行為的操作物件是單一資訊還是列表資訊,如果是單一資訊,則針對該單一資訊進行點擊行為或擷取行為的細化配置;及如果是列表資訊,則配置列表屬性,並從列表中選取樣例進行點擊行為或擷取行為的細化配置。 [4] 根據申請專利範圍第2項所述的方法,其中:每個點擊行為在觸發頁面跳轉時都會產生一個新的標注頁面;最初的標注頁面為起始頁面,基於起始頁面產生的所有標注頁面的集合構成一棵以該起始頁面為根的標注樹,所有的起始頁面代表的標注樹構成一個標注森林;及該網頁資訊擷取任務為一個標注森林或一棵標注樹或一個標注頁面。 [5] 根據申請專利範圍第1至4項任一項所述的方法,其中,該調度器解析網頁資訊擷取任務,並依據解析結果而自動執行該網頁資訊擷取任務,包括:該調度器解析網頁資訊擷取任務,並依據解析結果調度而進行網頁抓取,和/或頁面渲染,和/或頁面資訊擷取。 [6] 根據申請專利範圍第4項所述的方法,其中,該調度器解析網頁資訊擷取任務,並依據解析結果而自動執行該網頁資訊擷取任務,包括:調度器解析網頁資訊擷取任務,並獲得每個標注頁面的配置;依據標注頁面的URL調度抓取頁面資料;調度渲染標注頁面,並獲得標注頁面的DOM樹結構;遍歷標注頁面的DOM樹結構中對應節點的配置,並依據該節點的配置進行如下操作:如果是擷取行為,則依據擷取行為的配置調度擷取本文資訊;及如果是點擊行為,並且如果是下載行為,則依據點擊行為的配置調度抓取下載內容;如果是關於渲染的點擊行為,則依據點擊行為的配置進行調度渲染。 [7] 一種網頁資訊擷取系統,其特徵在於,包括:擷取配置模組,用於通過介面對話模式配置網頁資訊擷取任務,並存入資料庫;資料庫,用於儲存網頁資訊擷取任務;監控模組,用於監控資料庫,當發現資料庫中存入新的網頁資訊擷取任務後,將該新的網頁資訊擷取任務發送給調度器;及調度器,用於解析網頁資訊擷取任務,並依據解析結果自動執行該網頁資訊擷取任務。 [8] 根據申請專利範圍第7項所述的系統,其中,該擷取配置模組包括:配置入口子模組,用於提交標注頁面;行為標注子模組,用於在該標注頁面上標注頁面資訊的點擊行為和/或擷取行為;及細化配置子模組,用於對該點擊行為或擷取行為進行細化配置。 [9] 根據申請專利範圍第8項所述的系統,其中,該擷取配置模組還包括:元素類型選擇子模組,用於配置該點擊行為或擷取行為的操作物件是單一資訊還是列表資訊;如果是單一資訊,則觸發該細化配置子模組針對該單一資訊進行點擊行為或擷取行為的細化配置;及如果是列表資訊,則配置列表屬性,並觸發該細化配置子模組從列表中選取樣例進行點擊行為或擷取行為的細化配置。 [10] 根據申請專利範圍第8項所述的系統,其中:每個點擊行為在觸發頁面跳轉時都會產生一個新的標注頁面;最初的標注頁面為起始頁面,基於起始頁面產生的所有標注頁面的集合構成一棵以該起始頁面為根的標注樹,所有的起始頁面代表的標注樹構成一個標注森林;及該網頁資訊擷取任務為一個標注森林或一棵標注樹或一個標注頁面。 [11] 根據申請專利範圍第10項所述的系統,其中,還包括:抓取器,用於根據調度器的調度,依據標注頁面的URL抓取頁面資料,並返回給該調度器;渲染引擎,用於根據調度器的調度,渲染抓取回來的標注頁面,並獲得標注頁面的DOM樹結構,返回給該調度器;擷取器,用於根據調度器的調度,依據網頁資訊擷取任務的配置擷取相應的網頁資訊;該調度器通過解析網頁資訊擷取任務獲得每個標注頁面的配置;該調度器依據標注頁面的URL調度抓取器抓取頁面資料;該調度器調度渲染引擎渲染標注頁面,並獲得標注頁面的DOM樹結構;該調度器遍歷標注頁面的DOM樹結構中對應節點的配置,並依據該節點的配置進行如下操作:如果是擷取行為,則依據擷取行為的配置調度擷取器擷取本文資訊;及如果是點擊行為,並且如果是下載行為,則依據點擊行為的配置調度抓取器抓取下載內容;如果是關於渲染的點擊行為,則依據點擊行為的配置調度渲染引擎進行渲染。
类似技术:
公开号 | 公开日 | 专利标题 TWI537755B|2016-06-11|Web page information acquisition method and capture system US11216453B2|2022-01-04|Data visualization in a dashboard display using panel templates US10346521B2|2019-07-09|Efficient event delegation in browser scripts US10713324B2|2020-07-14|Search results for native applications Bharanipriya et al.2011|Web content mining tools: a comparative study CN103034518B|2017-05-31|加载浏览器控制工具的方法及浏览器 CN102880607A|2013-01-16|网络动态内容抓取方法及网络动态内容爬虫系统 CN103678511B|2016-11-16|根据可视化模板进行网页内容抽取的方法及装置 CN107423053B|2020-08-21|一种遥感图像处理的web化模型封装与分布式处理方法 CN107729385A|2018-02-23|一种采集动态网页完整数据内容的方法 JP5814089B2|2015-11-17|情報表示制御装置、情報表示制御方法、及びプログラム WO2017177872A1|2017-10-19|数据的收集方法及装置、存储介质 US20200097534A1|2020-03-26|Table cell editing in excel constrained to unbounded and searchable lists of values from web service KR102222287B1|2021-03-02|은닉 url에 포함된 정형 및 비정형 데이터의 수집을 위한 웹 크롤러 시스템 Ben Hadj Yahia et al.2017|Polly: A language-based approach for custom change detection of web service data Neumann et al.2017|Web-Scraping for non-programmers: Introducing OXPath for digital library metadata harvesting Yan et al.2018|Design and Development of an Intelligent Network Crawler System CN110147477B|2021-08-27|Web系统的数据资源模型化提取方法、装置以及设备 JP7023612B2|2022-02-22|ログ構造可視化装置、ログ構造可視化方法、およびプログラム Su et al.2011|KaitoroCap: a document navigation capture and visualisation tool Fayzrakhmanov et al.2018|Introduction to OXPath CN110851678A|2020-02-28|一种爬取数据的方法和装置 Yuping et al.2015|NDVS: A System of News Data Visualize GB2572543A|2019-10-09|System and method for crawling CN113849718A|2021-12-28|互联网烟草科技情报信息自动采集装置、方法与存储介质
同族专利:
公开号 | 公开日 US20140129541A1|2014-05-08| US20150106357A1|2015-04-16| TWI537755B|2016-06-11| CN102890692A|2013-01-23| US20130024441A1|2013-01-24| US9015144B2|2015-04-21| EP2734934A1|2014-05-28| JP2014522030A|2014-08-28| WO2013016139A1|2013-01-31| US9330179B2|2016-05-03| JP5636521B2|2014-12-03| US8612420B2|2013-12-17|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题 TWI682291B|2018-05-23|2020-01-11|中華電信股份有限公司|網頁之動態生成方法、網頁生成裝置及電腦程式產品|US6925595B1|1998-08-05|2005-08-02|Spyglass, Inc.|Method and system for content conversion of hypertext data using data mining| US7085736B2|2001-02-27|2006-08-01|Alexa Internet|Rules-based identification of items represented on web pages| US7310632B2|2004-02-12|2007-12-18|Microsoft Corporation|Decision-theoretic web-crawling and predicting web-page change| US7577671B2|2005-04-15|2009-08-18|Sap Ag|Using attribute inheritance to identify crawl paths| US7669119B1|2005-07-20|2010-02-23|Alexa Internet|Correlation-based information extraction from markup language documents| US7761591B2|2005-12-16|2010-07-20|Jean A. Graham|Central work-product management system for coordinated collaboration with remote users| US8407576B1|2008-09-02|2013-03-26|Sitscape, Inc.|Situational web-based dashboard| CN101582075B|2009-06-24|2011-05-11|大连海事大学|Web信息抽取系统| US20120117569A1|2010-11-08|2012-05-10|Kwift SAS|Task automation for unformatted tasks determined by user interface presentation formats| GB2503595A|2011-02-22|2014-01-01|Ibm|On-page manipulation and real-time replacement of content| US8799262B2|2011-04-11|2014-08-05|Vistaprint Schweiz Gmbh|Configurable web crawler| US8538949B2|2011-06-17|2013-09-17|Microsoft Corporation|Interactive web crawler| CN102890692A|2011-07-22|2013-01-23|阿里巴巴集团控股有限公司|一种网页信息抽取方法及抽取系统|US9465879B2|2010-01-14|2016-10-11|Excalibur Ip, Llc|Search engine recency using content preview| US20140222621A1|2011-07-06|2014-08-07|Hirenkumar Nathalal Kanani|Method of a web based product crawler for products offering| CN102890692A|2011-07-22|2013-01-23|阿里巴巴集团控股有限公司|一种网页信息抽取方法及抽取系统| US20140282115A1|2013-03-13|2014-09-18|Outright, Inc.|System and method for retrieving and selecting content| US20140282140A1|2013-03-13|2014-09-18|Outright, Inc.|Method for mobile content management| KR102135262B1|2013-06-25|2020-07-17|엘지전자 주식회사|이동 단말기 및 이동 단말기의 제어 방법| CN103345362B|2013-06-27|2016-07-06|优视科技有限公司|批量保存网页的方法及系统| CN103942309B|2014-04-18|2017-06-30|网易乐得科技有限公司|一种网络数据获取设备、方法及获取过程的实现方法| US9921181B2|2014-06-26|2018-03-20|International Business Machines Corporation|Detection of translocation events using graphene-based nanopore assemblies| US10289867B2|2014-07-27|2019-05-14|OneTrust, LLC|Data processing systems for webform crawling to map processing activities and related methods| US10769301B2|2016-06-10|2020-09-08|OneTrust, LLC|Data processing systems for webform crawling to map processing activities and related methods| US10452864B2|2016-06-10|2019-10-22|OneTrust, LLC|Data processing systems for webform crawling to map processing activities and related methods| US10592692B2|2016-06-10|2020-03-17|OneTrust, LLC|Data processing systems for central consent repository and related methods| CN105515815B|2014-10-17|2018-11-06|任子行网络技术股份有限公司|一种基于Heritrix爬虫的分布式采集方法及系统| EP3220285A4|2014-11-14|2017-11-08|Fujitsu Limited|Data acquisition program, data acquisition method and data acquisition device| CN106326314B|2015-07-07|2020-09-29|腾讯科技(深圳)有限公司|网页信息抽取方法及装置| CN106407218B|2015-07-31|2020-03-03|北京国双科技有限公司|导航网页的检测方法和装置| TWI556123B|2015-08-06|2016-11-01||News tracking and recommendation method| US20170091290A1|2015-09-24|2017-03-30|Mcafee, Inc.|Distributed data query| TW201717068A|2015-11-11|2017-05-16|財團法人資訊工業策進會|網頁內容萃取系統、網頁內容萃取方法及非暫態電腦可讀取記錄媒體| WO2017115387A1|2015-12-29|2017-07-06|Kiron Kasbekar|A method and system for navigating the web| US20170223136A1|2016-01-29|2017-08-03|AppDynamics, Inc.|Any Web Page Reporting and Capture| US10423996B2|2016-04-01|2019-09-24|OneTrust, LLC|Data processing systems and communication systems and methods for the efficient generation of privacy risk assessments| US10176502B2|2016-04-01|2019-01-08|OneTrust, LLC|Data processing systems and methods for integrating privacy information management systems with data loss prevention tools or other tools for privacy design| US9892441B2|2016-04-01|2018-02-13|OneTrust, LLC|Data processing systems and methods for operationalizing privacy compliance and assessing the risk of various respective privacy campaigns| US10176503B2|2016-04-01|2019-01-08|OneTrust, LLC|Data processing systems and methods for efficiently assessing the risk of privacy campaigns| US11244367B2|2016-04-01|2022-02-08|OneTrust, LLC|Data processing systems and methods for integrating privacy information management systems with data loss prevention tools or other tools for privacy design| US9898769B2|2016-04-01|2018-02-20|OneTrust, LLC|Data processing systems and methods for operationalizing privacy compliance via integrated mobile applications| US11004125B2|2016-04-01|2021-05-11|OneTrust, LLC|Data processing systems and methods for integrating privacy information management systems with data loss prevention tools or other tools for privacy design| US10706447B2|2016-04-01|2020-07-07|OneTrust, LLC|Data processing systems and communication systems and methods for the efficient generation of privacy risk assessments| US10026110B2|2016-04-01|2018-07-17|OneTrust, LLC|Data processing systems and methods for generating personal data inventories for organizations and other entities| US9892443B2|2016-04-01|2018-02-13|OneTrust, LLC|Data processing systems for modifying privacy campaign data via electronic messaging systems| US9892444B2|2016-04-01|2018-02-13|OneTrust, LLC|Data processing systems and communication systems and methods for the efficient generation of privacy risk assessments| US9892442B2|2016-04-01|2018-02-13|OneTrust, LLC|Data processing systems and methods for efficiently assessing the risk of privacy campaigns| US10242228B2|2016-06-10|2019-03-26|OneTrust, LLC|Data processing systems for measuring privacy maturity within an organization| US10416966B2|2016-06-10|2019-09-17|OneTrust, LLC|Data processing systems for identity validation of data subject access requests and related methods| US10181019B2|2016-06-10|2019-01-15|OneTrust, LLC|Data processing systems and communications systems and methods for integrating privacy compliance systems with software development and agile tools for privacy design| US10776514B2|2016-06-10|2020-09-15|OneTrust, LLC|Data processing systems for the identification and deletion of personal data in computer systems| US11025675B2|2016-06-10|2021-06-01|OneTrust, LLC|Data processing systems and methods for performing privacy assessments and monitoring of new versions of computer code for privacy compliance| US10706174B2|2016-06-10|2020-07-07|OneTrust, LLC|Data processing systems for prioritizing data subject access requests for fulfillment and related methods| US10275614B2|2016-06-10|2019-04-30|OneTrust, LLC|Data processing systems for generating and populating a data inventory| US10565161B2|2016-06-10|2020-02-18|OneTrust, LLC|Data processing systems for processing data subject access requests| US10565236B1|2016-06-10|2020-02-18|OneTrust, LLC|Data processing systems for generating and populating a data inventory| US10282559B2|2016-06-10|2019-05-07|OneTrust, LLC|Data processing systems for identifying, assessing, and remediating data processing risks using data modeling techniques| US10896394B2|2016-06-10|2021-01-19|OneTrust, LLC|Privacy management systems and methods| US10783256B2|2016-06-10|2020-09-22|OneTrust, LLC|Data processing systems for data transfer risk identification and related methods| US10496803B2|2016-06-10|2019-12-03|OneTrust, LLC|Data processing systems and methods for efficiently assessing the risk of privacy campaigns| US10440062B2|2016-06-10|2019-10-08|OneTrust, LLC|Consent receipt management systems and related methods| US10706379B2|2016-06-10|2020-07-07|OneTrust, LLC|Data processing systems for automatic preparation for remediation and related methods| US10282700B2|2016-06-10|2019-05-07|OneTrust, LLC|Data processing systems for generating and populating a data inventory| US9729583B1|2016-06-10|2017-08-08|OneTrust, LLC|Data processing systems and methods for performing privacy assessments and monitoring of new versions of computer code for privacy compliance| US10572686B2|2016-06-10|2020-02-25|OneTrust, LLC|Consent receipt management systems and related methods| US10846433B2|2016-06-10|2020-11-24|OneTrust, LLC|Data processing consent management systems and related methods| US11087260B2|2016-06-10|2021-08-10|OneTrust, LLC|Data processing systems and methods for customizing privacy training| US10169609B1|2016-06-10|2019-01-01|OneTrust, LLC|Data processing systems for fulfilling data subject access requests and related methods| US10740487B2|2016-06-10|2020-08-11|OneTrust, LLC|Data processing systems and methods for populating and maintaining a centralized database of personal data| US10642870B2|2016-06-10|2020-05-05|OneTrust, LLC|Data processing systems and methods for automatically detecting and documenting privacy-related aspects of computer software| US11227247B2|2016-06-10|2022-01-18|OneTrust, LLC|Data processing systems and methods for bundled privacy policies| US10452866B2|2016-06-10|2019-10-22|OneTrust, LLC|Data processing systems for fulfilling data subject access requests and related methods| US10585968B2|2016-06-10|2020-03-10|OneTrust, LLC|Data processing systems for fulfilling data subject access requests and related methods| US10204154B2|2016-06-10|2019-02-12|OneTrust, LLC|Data processing systems for generating and populating a data inventory| US10289866B2|2016-06-10|2019-05-14|OneTrust, LLC|Data processing systems for fulfilling data subject access requests and related methods| US10284604B2|2016-06-10|2019-05-07|OneTrust, LLC|Data processing and scanning systems for generating and populating a data inventory| US11144622B2|2016-06-10|2021-10-12|OneTrust, LLC|Privacy management systems and methods| US10289870B2|2016-06-10|2019-05-14|OneTrust, LLC|Data processing systems for fulfilling data subject access requests and related methods| US10713387B2|2016-06-10|2020-07-14|OneTrust, LLC|Consent conversion optimization systems and related methods| US10346637B2|2016-06-10|2019-07-09|OneTrust, LLC|Data processing systems for the identification and deletion of personal data in computer systems| US10685140B2|2016-06-10|2020-06-16|OneTrust, LLC|Consent receipt management systems and related methods| US10885485B2|2016-06-10|2021-01-05|OneTrust, LLC|Privacy management systems and methods| US11151233B2|2016-06-10|2021-10-19|OneTrust, LLC|Data processing and scanning systems for assessing vendor risk| US10997318B2|2016-06-10|2021-05-04|OneTrust, LLC|Data processing systems for generating and populating a data inventory for processing data access requests| US10496846B1|2016-06-10|2019-12-03|OneTrust, LLC|Data processing and communications systems and methods for the efficient implementation of privacy by design| US10909488B2|2016-06-10|2021-02-02|OneTrust, LLC|Data processing systems for assessing readiness for responding to privacy-related incidents| US10510031B2|2016-06-10|2019-12-17|OneTrust, LLC|Data processing systems for identifying, assessing, and remediating data processing risks using data modeling techniques| US10346638B2|2016-06-10|2019-07-09|OneTrust, LLC|Data processing systems for identifying and modifying processes that are subject to data subject access requests| US11138242B2|2016-06-10|2021-10-05|OneTrust, LLC|Data processing systems and methods for automatically detecting and documenting privacy-related aspects of computer software| US11238390B2|2016-06-10|2022-02-01|OneTrust, LLC|Privacy management systems and methods| US10019597B2|2016-06-10|2018-07-10|OneTrust, LLC|Data processing systems and communications systems and methods for integrating privacy compliance systems with software development and agile tools for privacy design| US10282692B2|2016-06-10|2019-05-07|OneTrust, LLC|Data processing systems for identifying, assessing, and remediating data processing risks using data modeling techniques| US10181051B2|2016-06-10|2019-01-15|OneTrust, LLC|Data processing systems for generating and populating a data inventory for processing data access requests| US10353673B2|2016-06-10|2019-07-16|OneTrust, LLC|Data processing systems for integration of consumer feedback with data subject access requests and related methods| US10353674B2|2016-06-10|2019-07-16|OneTrust, LLC|Data processing and communications systems and methods for the efficient implementation of privacy by design| US10878127B2|2016-06-10|2020-12-29|OneTrust, LLC|Data subject access request processing systems and related methods| US10607028B2|2016-06-10|2020-03-31|OneTrust, LLC|Data processing systems for data testing to confirm data deletion and related methods| US10706176B2|2016-06-10|2020-07-07|OneTrust, LLC|Data-processing consent refresh, re-prompt, and recapture systems and related methods| US10565397B1|2016-06-10|2020-02-18|OneTrust, LLC|Data processing systems for fulfilling data subject access requests and related methods| US10032172B2|2016-06-10|2018-07-24|OneTrust, LLC|Data processing systems for measuring privacy maturity within an organization| US10949565B2|2016-06-10|2021-03-16|OneTrust, LLC|Data processing systems for generating and populating a data inventory| US10909265B2|2016-06-10|2021-02-02|OneTrust, LLC|Application privacy scanning systems and related methods| US11222139B2|2016-06-10|2022-01-11|OneTrust, LLC|Data processing systems and methods for automatic discovery and assessment of mobile software development kits| US11157600B2|2016-06-10|2021-10-26|OneTrust, LLC|Data processing and scanning systems for assessing vendor risk| US10848523B2|2016-06-10|2020-11-24|OneTrust, LLC|Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods| US10776517B2|2016-06-10|2020-09-15|OneTrust, LLC|Data processing systems for calculating and communicating cost of fulfilling data subject access requests and related methods| US10776518B2|2016-06-10|2020-09-15|OneTrust, LLC|Consent receipt management systems and related methods| US10839102B2|2016-06-10|2020-11-17|OneTrust, LLC|Data processing systems for identifying and modifying processes that are subject to data subject access requests| US11146566B2|2016-06-10|2021-10-12|OneTrust, LLC|Data processing systems for fulfilling data subject access requests and related methods| US10509894B2|2016-06-10|2019-12-17|OneTrust, LLC|Data processing and scanning systems for assessing vendor risk| US11200341B2|2016-06-10|2021-12-14|OneTrust, LLC|Consent receipt management systems and related methods| US10438017B2|2016-06-10|2019-10-08|OneTrust, LLC|Data processing systems for processing data subject access requests| US10708305B2|2016-06-10|2020-07-07|OneTrust, LLC|Automated data processing systems and methods for automatically processing requests for privacy-related information| US11188862B2|2016-06-10|2021-11-30|OneTrust, LLC|Privacy management systems and methods| US10454973B2|2016-06-10|2019-10-22|OneTrust, LLC|Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods| US11038925B2|2016-06-10|2021-06-15|OneTrust, LLC|Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods| US11134086B2|2016-06-10|2021-09-28|OneTrust, LLC|Consent conversion optimization systems and related methods| US10803200B2|2016-06-10|2020-10-13|OneTrust, LLC|Data processing systems for processing and managing data subject access in a distributed environment| US10762236B2|2016-06-10|2020-09-01|OneTrust, LLC|Data processing user interface monitoring systems and related methods| US11138299B2|2016-06-10|2021-10-05|OneTrust, LLC|Data processing and scanning systems for assessing vendor risk| US10586075B2|2016-06-10|2020-03-10|OneTrust, LLC|Data processing systems for orphaned data identification and deletion and related methods| US10678945B2|2016-06-10|2020-06-09|OneTrust, LLC|Consent receipt management systems and related methods| US11210420B2|2016-06-10|2021-12-28|OneTrust, LLC|Data subject access request processing systems and related methods| US10102533B2|2016-06-10|2018-10-16|OneTrust, LLC|Data processing and communications systems and methods for the efficient implementation of privacy by design| US10949170B2|2016-06-10|2021-03-16|OneTrust, LLC|Data processing systems for integration of consumer feedback with data subject access requests and related methods| US11188615B2|2016-06-10|2021-11-30|OneTrust, LLC|Data processing consent capture systems and related methods| US10592648B2|2016-06-10|2020-03-17|OneTrust, LLC|Consent receipt management systems and related methods| US10726158B2|2016-06-10|2020-07-28|OneTrust, LLC|Consent receipt management and automated process blocking systems and related methods| US10803202B2|2018-09-07|2020-10-13|OneTrust, LLC|Data processing systems for orphaned data identification and deletion and related methods| US9851966B1|2016-06-10|2017-12-26|OneTrust, LLC|Data processing systems and communications systems and methods for integrating privacy compliance systems with software development and agile tools for privacy design| US10430740B2|2016-06-10|2019-10-01|One Trust, LLC|Data processing systems for calculating and communicating cost of fulfilling data subject access requests and related methods| US11144675B2|2018-09-07|2021-10-12|OneTrust, LLC|Data processing systems and methods for automatically protecting sensitive data within privacy management systems| US10853501B2|2016-06-10|2020-12-01|OneTrust, LLC|Data processing and scanning systems for assessing vendor risk| US10235534B2|2016-06-10|2019-03-19|OneTrust, LLC|Data processing systems for prioritizing data subject access requests for fulfillment and related methods| US10437412B2|2016-06-10|2019-10-08|OneTrust, LLC|Consent receipt management systems and related methods| US11228620B2|2016-06-10|2022-01-18|OneTrust, LLC|Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods| US11023842B2|2016-06-10|2021-06-01|OneTrust, LLC|Data processing systems and methods for bundled privacy policies| US11057356B2|2016-06-10|2021-07-06|OneTrust, LLC|Automated data processing systems and methods for automatically processing data subject access requests using a chatbot| US10318761B2|2016-06-10|2019-06-11|OneTrust, LLC|Data processing systems and methods for auditing data request compliance| US10614247B2|2016-06-10|2020-04-07|OneTrust, LLC|Data processing systems for automated classification of personal information from documents and related methods| US10796260B2|2016-06-10|2020-10-06|OneTrust, LLC|Privacy management systems and methods| US10467432B2|2016-06-10|2019-11-05|OneTrust, LLC|Data processing systems for use in automatically generating, populating, and submitting data subject access requests| US10997315B2|2016-06-10|2021-05-04|OneTrust, LLC|Data processing systems for fulfilling data subject access requests and related methods| US10706131B2|2016-06-10|2020-07-07|OneTrust, LLC|Data processing systems and methods for efficiently assessing the risk of privacy campaigns| US11222142B2|2016-06-10|2022-01-11|OneTrust, LLC|Data processing systems for validating authorization for personal data collection, storage, and processing| US10606916B2|2016-06-10|2020-03-31|OneTrust, LLC|Data processing user interface monitoring systems and related methods| US10944725B2|2016-06-10|2021-03-09|OneTrust, LLC|Data processing systems and methods for using a data model to select a target data asset in a data migration| US10873606B2|2016-06-10|2020-12-22|OneTrust, LLC|Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods| US10509920B2|2016-06-10|2019-12-17|OneTrust, LLC|Data processing systems for processing data subject access requests| US10798133B2|2016-06-10|2020-10-06|OneTrust, LLC|Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods| US11074367B2|2016-06-10|2021-07-27|OneTrust, LLC|Data processing systems for identity validation for consumer rights requests and related methods| US11222309B2|2016-06-10|2022-01-11|OneTrust, LLC|Data processing systems for generating and populating a data inventory| US10503926B2|2016-06-10|2019-12-10|OneTrust, LLC|Consent receipt management systems and related methods| US11100444B2|2016-06-10|2021-08-24|OneTrust, LLC|Data processing systems and methods for providing training in a vendor procurement process| US20180150562A1|2016-11-25|2018-05-31|Cognizant Technology Solutions India Pvt. Ltd.|System and Method for Automatically Extracting and Analyzing Data| CN108197125B|2016-12-08|2020-10-09|腾讯科技(深圳)有限公司|网页抓取方法及装置| CN106599270B|2016-12-23|2020-08-21|浙江省公众信息产业有限公司|网络数据抓取方法和爬虫| US10013577B1|2017-06-16|2018-07-03|OneTrust, LLC|Data processing systems for identifying whether cookies contain personally identifying information| US9858439B1|2017-06-16|2018-01-02|OneTrust, LLC|Data processing systems for identifying whether cookies contain personally identifying information| CN110020068B|2017-09-26|2021-10-15|北京国双科技有限公司|一种页面爬取规则的配置方法及装置| US10104103B1|2018-01-19|2018-10-16|OneTrust, LLC|Data processing systems for tracking reputational risk via scanning and registry lookup| CN108388429A|2018-02-08|2018-08-10|成都东谷信息技术有限公司|一种通过Web客户端自动化操作实现数据直通集成的系统| US10922366B2|2018-03-27|2021-02-16|International Business Machines Corporation|Self-adaptive web crawling and text extraction| EP3467740A1|2018-06-20|2019-04-10|DataCo GmbH|Method and system for generating reports| CN108959539B|2018-06-30|2021-09-21|成都信息工程大学|一种基于规则可配置的网页数据解析方法| CN109614532A|2018-11-26|2019-04-12|上海阿米特数据系统有限公司|一种零售网站数据自动获取系统| CN110188258A|2019-04-19|2019-08-30|平安科技(深圳)有限公司|使用爬虫获取外部数据的方法及装置| CN110222251A|2019-05-27|2019-09-10|浙江大学|一种基于网页分割和搜索算法的服务包装方法| CN111698364B|2020-06-19|2021-09-21|深圳市小满科技有限公司|联系人信息提取方法、相关设备及计算机可读存储介质|
法律状态:
优先权:
[返回顶部]
申请号 | 申请日 | 专利标题 CN2011102078971A|CN102890692A|2011-07-22|2011-07-22|一种网页信息抽取方法及抽取系统| 相关专利
Sulfonates, polymers, resist compositions and patterning process
Washing machine
Washing machine
Device for fixture finishing and tension adjusting of membrane
Structure for Equipping Band in a Plane Cathode Ray Tube
Process for preparation of 7 alpha-carboxyl 9, 11-epoxy steroids and intermediates useful therein an
国家/地区
|